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МАКІХС АХ5УУЕК АГ.СОВІТНМ КОК СНАТ-ВОТ 


У статті досліджено недоліки існуючих чат-ботів та розглянуто методи їх покращення. Зокрема, 
запропоновано використання алгоритмів Рабіна-Карпа та Кнута-Пратта для формування відповіді 
користувачеві та показано їх ефективність. 
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Вступ 

Робот або бот (1, а також інтернет-бот, ууууму-бот тощо - спеціальна програма, 
що виконує автоматично і/або за заданим розкладом які-небудь дії через ті ж 
інтерфейси, що й звичайний користувач. Під час обговорення комп'ютерних програм 
термін уживається в основному в застосуванні до Інтернету. Зазвичай боти 
призначаються для виконання роботи, одноманітної й повторюваної, з максимально 
можливою швидкістю (очевидно, набагато вищою за можливості людини). Людина, 
що обслуговує сервери, може помістити на сервері файл гобоїв. хі, що містить 
обмеження, яким зобов'язані підпорядковуватися боти. 

Чат-бот може видати досить адекватну відповідь на питання. Такі боти часто 
застосовуються для повідомлення прогнозу погоди, результатів спортивних змагань, 
курсів валют, біржових котирувань тощо. Вони знаходять застосування, наприклад, у 
системі ЗплатіетГСріїд в АОЇ, Шяіапі Меззепесег 1 М5М плез5епоег. Також чат-боти 
використовуються інтернет-магазинами для спілкування з користувачами та промоції 
продукції. Інша сфера застосування -- соціальні мережі, де такі програми, фактично, 
можуть задавати «тон» бесіді. 

Проте недоліком бота є те, що його відповідь має неузгоджені відмінок, рід тощо. 
Часто боти можуть відповідати на запитання із заданої ключовими словами тематики. 

Метою роботи є розроблення алгоритму аналізу та розбору тексту користувача 
для автоматичного формування відповіді чат-бота з врахуванням тематики переписки 
та морфології тексту. Робота алгоритму базуватиметься на префікс-функції та хеш- 
функції. Також буде здійснено порівняння розробленого алгоритму з існуючими. 

Аналіз літературних джерел 

За визначенням |! | інтелект чат-бота - це те, що допомагає йому керувати будь- 
яким сценарієм бесіди. 

Найпоширенішими є боти, які за допомогою кнопкового інтерфейсу дають 
відповідь на запитання. Проте предметом наших досліджень є боти, які «розуміють» 
природну мову (з пакиге Іапецаєє іпіегіасе). Найкращі онлайн-чати на основі штучного 
інтелекту (ШІ) - Мікики, Возе, Ропспо, КВієпі СПскК, Пазопапо Вої, Дт. АЇ та Меіоду. 
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1. Міцуку |21. 

Є одним з кращих зі ШІ, нинішній лауреат премії Лоєбнера. Премія Лоєбнера - 
це щорічний конкурс методів штучного інтелекту, у якому визначається інтелект, 
найбільше подібний до людського. Формат конкурсу -стандартний тест Тьюрінга. 
Цей бот може поговорити про що-небудь, на відміну від інших, зроблених для 
конкретного завдання. 

2. Роза |31. 

Чат-бот, який отримав премію Лоєбнера в 2014 і 2015 роках. 

3. КіепІСТск |4). 

Запускає програму, що створює веб-сайти. Він ставить загальні питання під час 
бесіди: «Яка сфера Ваших інтересів?» та «Чому ви хочете створити веб-сайт?». На 
основі аналізу отриманих відповідей, чат-бот створює індивідуальні шаблони. 
Доволі адекватно реагує на відповіді, що не стосуються тематики створення сайтів. 

4. Пончо |35Ї. 

Пончо - метеорологічний фахівець. Він надсилає сповіщення щонайменше 
двічі на день за згодою користувача та досить розумний, щоб відповідати на такі 
запитання, як «Я повинен взяти парасольку сьогодні?» 

5. Інсономічний бот |бЇ. 

Інсономічний бот призначений для нічних сов. Як випливає з назви, це 
стосується всіх людей, які мають проблеми зі сном. Цей бот має змогу підтримувати 
розмову на будь-яку тему. 

6. Д-р А.А. | 71. 

Бот запитує про симптоми, параметри тіла та історію хвороби, потім складає список 
найбільш і найменш вірогідних причин симптомів і сортує їх за порядком серйозності. 

7. Мелодія від Вайди |З. 

Цей додаток збирає медичну інформацію про людей, а потім передає її лікарям 
у формі, що полегшує її використання для діагностичних цілей. 

Більша частина будь-якого чат-бота - це розмова з її користувачем. Отже, 
основну увагу у алгоритмі бота необхідно приділяти розробці бесіди в чаті. Для 
англійської мови доволі легко можна збудувати речення, оскільки визначення особи 
та множини/однини доволі легко зробити. Для таких мов як німецька важливим у 
правильному морфологічному формуванні відповіді є порядок слідування слів у 
реченні, що також може бути доволі формалізованим. Якщо йде мова про створення 
ботів для слов'янських мов (наприклад, української), то основною проблемою тут є 
не строгість розміщення слів у реченні, наявність різних закінчень для осіб та 
однини/множини, а також велика синонімічна база. 

Постановка задачі 

Задачею, яка вирішується у статті, є визначення статі співрозмовника для 
формування зв'язних повідомлень. Для цього ми створимо базу даних з ключовими 
словами (слова, на які повинен реагувати бот), відповідями на них та особовими 
закінченнями дієслів. 

Префікс-функція |9, 10) рядка л (5, 1) визначає довжину найбільшого префікса 
рядка 5 |1..1), який не збігається з цим рядком і одночасно є її суфіксом. Простіше 
кажучи, це довжина найдовшого початку рядка, що є також і його кінцем. Для рядка 
5 зручно представляти префікс-функцію у вигляді вектора довжиною |5| -І. Можна 
розглядати префікс-функцію довжини |5|, поклавши л (8, 1) - 0. Приклад префікс- 
функції для рядка «абсдабсабсдабсдаб»: 
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5 а Ь С д а Ь с а Ь С д а Ь с д а Ь 


л(3,1) 0 0 0 0 1 2 3 1 2 3 4 5 6 7 4 5 6 


Хешування |11| (англ. На5ріп2) - перетворення масиву вхідних даних довільної 
довжини (масиву рядків) у (вихідний) бітовий рядок фіксованої довжини, що 
виконується певним алгоритмом. Функція, що реалізує алгоритм і виконує 
перетворення, називається хеш-функцією або функцією згортки. Вихідні дані 
називаються вхідним масивом, ключем або повідомленням. Результат перетворення 
(вихідні дані) називається хешем, хеш-кодом, хеш-сумою, зведенням повідомлення. 

Хешування застосовується у таких випадках: 

- для побудови асоціативних масивів; 

- для пошуку дублікатів у серіях наборів даних; 

- для побудови унікальних ідентифікаторів у наборах даних; 

- для обчислення контрольних сум від даних (сигналу) для подальшого виявлення в 
них помилок (які виникли випадково або внесені навмисно), що виникають при 
зберіганні 1 / або передачі даних; 

- для збереження паролів у системах захисту у вигляді хеш-коду (для відновлення пароля 
для хеш-коду потрібна функція, яка є зворотною щодо використаної хеш-функції); 

- для вироблення електронного підпису (на практиці часто підписують не саме 
повідомлення, а його «хеш-образ») та ін. 

Загалом (згідно з принципом Діріхле) немає однозначної відповідності між 
вихідними (вхідними) даними і хеш-кодом (вихідними даними). Значення (вихідні 
дані), що повертаються хеш-функцією, менш різноманітні, ніж значення вхідного 
масиву (вхідні дані). Випадок, при якому хеш-функція перетворює кілька різних 
повідомлень в однакові зведення, називається «колізією». Імовірність виникнення 
колізій використовується для оцінки якості хеш-функцій. 

Розроблення алгоритму чат-бота 

Алгоритм чат-бота полягатиме у пошуку ключового слова (слів) бесіди та 
формування особового закінчення дієслова. 

Пошук ключового слова здійснимо за допомогою хешування. Для цього 
використаємо формулу розрахунку: 

Б(5) з 5101 - 5П11ЄР -- 51219 Р2 я 5(3)ЖР3 4... - 5)М) ЯРУ, 

де Р - просте число. Виберемо таке Р, яке приблизно дорівнює кількості символів у 

вхідному алфавіті. Наприклад, якщо рядки складаються тільки з маленьких 

українських літер, то хорошим вибором буде Р - 37. Використаємо алгоритм Рабіна- 

Карпа для пошуку підрядка в рядку за О (М). 

Нехай задано текст користувача Т 1 рядок 5 у ньому, що складаються з 
маленьких кириличних літер. Потрібно знайти всі входження рядка 5 у текст Т за час 
0(151-к Ї ТТ). Алгоритм пошуку ключового слова складається з таких кроків: 

1. Порахуємо хеш для рядка 5. 

2. Порахуємо значення хеш для всіх префіксів рядки Т. 

3. Переберемо всі підрядки Т довжини |5|. Кожен з них можна порівняти з 
іншими рядками довжини |5| за час О (1). 

Після того, як знайдено ключове слово, потрібно визначити особове закінчення 
дієслова. З цією метою намагаємося знайти дієслово як слово що знаходиться перед 
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або за знайденим ключовим словом. Перевірку закінчення реалізуємо за допомогою 

префікс-функції: за алгоритмом Кнутта-Пратта, який не містить явних порівнянь 

рядків і виконується за О (п) дій. Наведемо схему алгоритму: 

1. Рахуватимемо значення префікс-функції л(ї) для і Є (1..т. -- 1) (л|0) - 0). 

2. Для підрахунку поточного значення л(|;| використаємо змінну ), що позначає 
довжину поточного розглянутого зразка. Спочатку |- л(/-1|. 

3. Тестуємо зразок довжини ), для чого порівнюємо символи 5 |)| 1 5 П|. Якщо вони 
однакові, то вважаємо л|і|-/- 1, і :- і - 1. Якщо ж символи відрізняються, то 
зменшуємо довжину ), вважаючи її рівною лі|)-1|, 1 повторюємо цей крок 
алгоритму спочатку. 

4. Якщо ми дійшли до довжини ) - 0 і так і не знайшли однакових символів, то 
зупиняємо процес перебору зразків і вважаємо л| 2-0, іга і я 1. 

Загальний алгоритм формування відповіді чат-ботом подано на рис. 1. 


Створення масиву 


Пошук коефіцієнтів 
ключового домноження Створення рядків 


слова в рядку | закінчення(ч.ріж р) ж "Я" я 
слово яке перевіряється 


Розрахунок і запис 


Стеммінг наступного хешів стрічки у 
або попереднього масив 
слова 


Розрахунок хеша 


Запис у масив значення 
префікс-функції 


Анапіз 
- ук 
зайкаій шуканого слова 
| Перевірка співпадіння 
й УР значення елементу 
Підбір фрази для Пошук у масиві масиву останнього 
відповіді хешів елементу з довжиною 


префіксу 
Рис.1. Алгоритм формування відповіді чат-ботом 


Порівняння з існуючими методами 
У першу чергу, порівняємо розроблений алгоритм з існуючими алгоритмами 
пошуку ключового слова. Для пошуку ключових слів використовують такі алгоритми: 
1) Алгоритм прямого пошуку | 121. 
Ідея алгоритму: 
1)1-1, 
2) порівняти І-Й символ масиву Т з першим символом масиву МУ, 
3) якщо символи однакові, то порівняти наступні символи 1 так далі, 
4) якщо символи різні, то І: - І Я 1 1 перехід на пункт 2. 
Умова закінчення алгоритму: 
1) М знайдених підряд порівнянь вдалі, 
2)1-- М» М, тобто слово, не знайдено. 
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Нехай масив Т -» |ААА .. «АААВ), довжина | т| - кількість усіх 
повідомлень, зразок М/ -» (А... .АВ), довжина | МУ | - 5. Очевидно, що для 
виявлення співпадіння в кінці рядка потрібно здійснити близько 5 " Т порівнянь, 
тобто О (5 ЗТ). 

Недоліки алгоритму: 

1) висока складність - О (5 " Т), у гіршому випадку - О ((7-5 -- 1) З Т); 

2) після виявлення під час порівняння різних символів, перегляд завжди починається з 

першого символу зразка і тому може включати символи Т, які раніше вже були 

видимими (очевидно, що в он-лайн режимі таке порівняння не може бути реалізоване); 

3) інформація про текст Т, що отримується під час перевірки зміщення 5, ніяк не 

використовується для перевірки наступних зміщень. 
2) КМП-пошук |121. 

Ідея КМП-пошуку полягає в тому, що під час кожної знайденої розбіжності 
двох символів тексту здійснюється зсув на довжину, яка дорівнює кількості символів, 
які співпали. 

Особливості КМП-пошуку: 

1) Потрібно близько (5 -- Т) порівнянь символів для отримання результату. 

2) Схема КМП-пошуку дає виграш тільки тоді, коли невдачі передувала певна 
кількість співпадінь. Лише у цьому випадку образ зсувається більше, ніж на 
одиницю. Тому обчислювальна складність цього алгоритму незначно 
відрізняється від обчислювальної складності прямого пошуку. 

3) І5АПЗІ. 

Латентно-семантичний аналіз (1І5А) призначений для визначення тематики 
тексту. Такий метод корисний для побудови чат-ботів, які не спеціалізуються на 
якійсь певній тематиці. Він складається з кроків: 
1.Видалення стоп-слів, стемінг або лематизації слів у документах. 
2.Видалення слів, що зустрічаються в єдиному екземплярі. 

3. Побудова бінарної матриці: слово-документ 5УПЮ (можливо також частота входження). 

4.Сингулярний розклад 5УР - 0 Є У Ж МУ", де Ю та ХУ - ортогональні матриці, а М - 

діагональна, діагональні елементи впорядковані за спаданням. 

5. Пошук рядків матриці | і стовпців УУ, які відповідають найбільшим сингулярним числам. 

Недоліком І5А є припущення про те, що карта слів у документах не є 
нормально розподілена. Цей алгоритм добре піддається розпаралеленню, але, на 
жаль, для чат-бота це є неможливим. Складність алгоритму визначається О(п 2 К 9); 
де п - Кількість слів, К - розмірність матриці семантичного простору (для малих 
текстів лежить у межах від 50 до 350). 

4) М5М зі Мчаї схемою. 

Уесіог Зрасе Моає! (УЗМ) зі «Е14Г (14) схемою аналізує такі основні елементи: 

е колекцію документів (переписка з користувачем), кожен з яких представлений у 

вигляді вектора; 

е текстовий запит (відповідь користувача), також представлений у вигляді вектора. 

Ми визначаємо К документів колекції з найвищим значенням векторного 
простору на запиті 4. Як правило, документи впорядковуються за зменшенням цього 
значення. Складність алгоритму визначається як О(|О014|5| 1), де О - кількість 
термінів, |5| - кількість слів у відповіді користувача, |Т| - кількість усіх повідомлень. 
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Зведене порівняння алгоритмів подано в таблиці І. 
Як бачимо, розроблений алгоритм не домінує тільки у КМП-пошуку в тому 
випадку, коли відразу знаходимо необхідний зразок. 


Таблиця 1. Порівняння алгоритмів 


Алгоритм Складність 
Розроблений алгоритм О(151-к ІТТ) 
Прямий пошук рядка О ((Т5 - 1) Т) 
КМП-пошук від О(І5Ї -К ЇТТ) до О ((Т-5 -- 1) Ж Т) 
ІЗА О (п? к?), па|5||7) 
МЯ8М зі Рід схемою ГАПІГАТЄТТРАГО 

Висновки 


Проаналізувавши існуючі методи, бачимо, що складність розробленого 
алгоритму пошуку ключових слів є меншою. Використання префікс-функції для 
формування відповіді бота дає змогу працювати з кириличними текстами. 
Запропонований алгоритм покращує роботу чат-ботів, а саме - визначає стать 
співрозмовника. Це наближує функціонування бота до рівня розмови людини. 
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КЕ5ОМЕ 

Р.Уа. РиКасі, КР.В. 5БаКПпоузка 

Макіпе ап5угєг аїсогійпт Гог спає-Бої 

А тобої ог Бої, аз умеї а5 ап іпіегпей Бої, а мумум/-Бої, еїс., 15 а зресіа! ргодгат Шаї 
регіогтя ашіотайсаПу апа / ог оп а б1уеп 5сСПедціе ої апу асйоп ШгоцеП Фе зате іпіегіасе5 
а5 ап огаїпагу ц5ег. Ригіпеє Фе дізсиз81оп ої сотри/ег ргосгатя, птаїпіу ц5ед їог іпіегпеї. 

Тре ригроз5е ої Фе у/огК 15 іо деуеіор ап аїєогійпт Гог апаіуліпе, апа раг5іпе Ше 
ивег'я їехі Гог ацміотайсаПу врепегайпе Фе ге5роп5е ої Пе сраї Бої, (акіпє іпіо ассойпі Ше 
горісв ої соггезропаепсе апа погрроїовбу ої Фе їехі. ТРре аїєогійрт'я муогк мі! Бе Базед 
оп ргейх Гипсйоп апа ра5р Гапсйоп. АЇ5о0, а сотрагі5оп ої Ше деуеіоред аїєогіт мій 
Фе ехі5ипе, опез му Бе піаде. 

СПаї-Боїз (аКе а 5ієпійсапі рагі їп оцг Пе. ТРрегеїоге, ме 5(агіед ехріогіпе, Ше по5і 
ц5ед Боїз апа Гоцпа а дї5задуапіаєе. ТВе аїта ої Фе рарег 15 Ше гесоєпійоп ої ц5ег'8 
зепдег Їог таКкіпє сраї-Бої'є ап5ууег плоге Битап ПКепез88. ТПаї'5 муру ме сгеаїе а 
Чдагаба5е улії Кеумогаз (могая Ша Ше Бої пли5і плас), гезроп5е5 (о Шет апа 5ресіа! 
уегб епдіпе5. Вик, дигіпє іпуезйрайоп ме пойсед (пас де іо біє сотріехцу ої ууеії- 
Кпомтп аїєогіййт Феу аге пої а5 еНесіує а5 ме му/15П. Ассогаїпе о Щіз8, ме ргоро5е п5аєе 
ої Кабіп-Кагр апа Кпиє-Ргай аїсогійт5, Фце іо Шеіг еНесцпуцу. Гі соп5едиепсе ої 
ра5ріпе, ме гедисе а диапійу ої сотрагі5оп уПпісі Їе( Фе аїсогійт ууогК5 Газіег. То адй, 
ууе сап Ппа 5ресіаї епдїпе8 улії Ппеаг сопріехцу. Кезиікя ої ге5зеагсп сап Бе ц5ед пої 
опіу Гог сра!-Боїз апа аї5о Гог Ппдпє Кеумогав їп Фе (ехі. 

АЙег апаїугіпо ехі5йиє пте(Подз8, у/е 5ее Шаї Ше согпріехіку ої Ше деуеіоред 
аїбогіййт Їог Ппдпє Кеум/огая 15 Іе55 Шап ої ууеП-Кпому аїєогійрт. О5іпє Фе ргейх 
Гапсйоп іо їогті а Бої гезроп5е аПом/5 уои (о ууогк уліїБ Сугіййс (ехі5. Те ргорозед 
аїбогіййт іпаргоуе5 ууогК ої сраї Бої58, муУбісп Чеіегппіпез Ше бепаег ої (фе іпіегіосиіог. 
Трів бгіпє8 Фе Бог сіобег (0 Фе Ісусі ої ритап сопуег5айоп. 


Надійшла до редакції 13.10.2017 
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